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Эволюционный метод синтеза деревьев 
решений" 


Исследован эволюционный подход к построению деревьев решений. Разработан метод редукции обучающей 
выборки, позволяющий исключать малозначимые и малоинформативные признаки. Предложен эволюционный 
метод построения деревьев решений. Проведены эксперименты по синтезу диагностических моделей на основе 
предложенных методов. 


Введение 


Решение задач технического и биомедицинского диагностирования связано с не- 
обходимостью построения моделей исследуемых объектов, процессов или систем [1]. 

В качестве диагностических моделей эффективно могут использоваться деревья 
решений [2-5], которые являются достаточно популярным направлением вычислитель- 
ного интеллекта и строятся на основе индуктивного обучения по примерам. Деревья 
решений представляют собой графовые модели, узлы которых реализуют функции при- 
нятия решений на основе значений входных переменных, а листовые узлы содержат 
значения выходной переменной, соответствующие условиям внутренних узлов. Такие 
модели хорошо интерпретируются людьми-специалистами в прикладных областях, ко- 
торые, как правило, не знакомы с методами и моделями искусственного интеллекта. 
Деревья решений позволяют эффективно решать задачи классификации и прогнози- 
рования, обеспечивая при этом высокую точность. 

Для синтеза деревьев решающих правил в настоящее время используют методы 
САКТ, С4.5, ШЗ и др. [2]. Однако такие методы используют жадную стратегию поиска. 
Если один раз признак был выбран, и по нему выполнено разбиение на подмножества, 
то метод не может вернуться назад и выбрать другой атрибут, который привел бы к 
лучшему разбиению, вследствие чего в результате часто синтезируются деревья реше- 
ний, не обеспечивающие приемлемый уровень аппроксимации [2-5]. 

Поэтому построение деревьев решений целесообразно выполнять на основе эво- 
люционного поиска [1], [6-8], представляющего собой набор стохастических методов 
оптимизации, не использующих жадную стратегию поиска, не требующих вычислений 
значений производных оптимизируемого функционала и обладающих механизмами 
выхода из локальных оптимумов. 

Целью статьи является разработка эволюционного метода синтеза деревьев ре- 
шений, позволяющего выполнять построение древовидной диагностической модели без 
использования жадной стратегии поиска. 


“Работа выполнена в рамках госбюджетной НИР «Информационные технологии автоматизации 
распознавания образов и принятия решений для диагностики в условиях неопределенности на основе 
гибридных нечеткологических, нейросетевых и мультиагентных методов вычислительного интел- 
лекта» кафедры программных средств Запорожского национального технического университета 
(номер государственной регистрации 01090007673). 
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Постановка задачи 


Пусть задана выборка данных < Х, У>, где Х= {Х}} -— набор значений признаков, 
характеризующих рассматриваемый объект или процесс; У= {у»} — массив значений 
выходного параметра в заданной выборке; Х,= {х„} — Ёй признак в выборке, 
1=1,2, ..., [; х» — значение 1-го признака для р-го экземпляра выборки, р = 1, 2, ..., т; 
у» — значение прогнозируемого параметра для р-го экземпляра; Г — общее количество 
признаков в исходном наборе; т — количество экземпляров выборки. 

Необходимо аппроксимировать зависимость отклика У от набора факторов Х в 
виде модели, представленной деревом решений Т= {1} таким образом, чтобы 


значение ошибки прогнозирования или классификации Е построенной модели было 
минимальным, где 1 =<с,, 1, и > - К-Й узел дерева Т, представляющий собой 


структуру, в которой с, — функция принятия решений на основе значений входных 


переменных (в случае, если узел является внутренним) или значение выходной 
переменной (для внешних узлов), /[, и и, — ссылки на левого и правого потомков (-го 


узла, соответственно, представляющих собой структуры, аналогичные (,. 
Тогда задача построения дерева решений 7 = {1, } по заданной выборке < Х, У> 


заключается в идентификации узлов 1, =<с,, [,, к, > так, чтобы Е —> шш. 


Редукция обучающей выборки 


Известно [1], [2], [6], что обучающая выборка может содержать избыточные или 
малозначимые признаки, которые не только усложняют синтезируемую модель, но и 
затрудняют процесс ее построения. Кроме того, в обучающем множестве могут на- 
ходиться избыточные экземпляры, исключение которых позволит сократить размер 
выборки, и, следовательно, повысить обобщающие свойства построенной на ее основе 
модели. 

Поэтому до синтеза диагностических моделей целесообразно выполнять редукцию 
обучающей выборки, исключая избыточные признаки и экземпляры. Поэтому разрабо- 
танный метод редукции обучающей выборки предлагается выполнять в два этапа: 

— редукция признаков; 

— редукция экземпляров. 

Для редукции признаков предлагается использовать эволюционный поиск, осно- 
ванный на оптимизации случайного множества решений с различными оценками, а не 
одного решения, что позволяет синтезировать множество новых решений на основе ста- 
рых субоптимальных решений. Однако методы эволюционного поиска являются высоко- 
итеративными, а время их работы сильно зависит от начальных условий поиска. Поэтому 
эффективность работы традиционных методов эволюционного поиска является недоста- 
точно высокой. 

Для повышения эффективности методов эволюционного поиска при решении за- 
дачи отбора информативных признаков предлагается анализировать информативность 
признаков на этапе инициализации параметров эволюционного метода путём применения 
известных критериев оценивания индивидуальной информативности признаков (коэф- 
фициент парной корреляции, коэффициенты корреляции знаков, энтропия признаков, 
теоретико-информационный критерий и др.). 

При инициализации начального множества решений предлагается увеличить 
вероятность включения тех признаков в хромосому, чьи оценки индивидуальной зна- 
чимости выше средней. 
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При создании новых решений с помощью оператора равномерного скрещивания 
априорная информация о значимости признаков может быть использована следующим 
образом. Вначале определить пороговое значение информативности признаков. Затем 
создать маску скрещивания, установив «1» для тех признаков, оценки информативности 
которых выше порога, и «0» — для признаков, оценки информативности которых равны 
или ниже порога. С целью увеличения разнообразия популяции после формирования 
маски скрещивания можно случайным образом изменить в ней некоторые разряды. 

В операторе мутации априорные сведения об уровне информативности признаков 
можно использовать посредством усиления вероятности мутации признаков, имеющих 
низкие оценки индивидуальной информативности и ослабления вероятности мутации 
признаков с высокими оценками индивидуальной информативности. Это позволит за- 
крепить признаки, наиболее сильно влияющие на целевой параметр модели, и сконцент- 
рировать поиск на переборе сочетаний признаков с меньшей информативностью. 

На этапе редукции экземпляров из обучающей выборки исключаются экземпляры, 
не существенные для построения диагностической модели. Очевидно, что наибольшую 
значимость для синтеза моделей оказывают экземпляры, расположенные в центрах и на 
границах классов или кластеров. Поэтому для оценивания значимости экземпляров 
обучающей выборки предлагается использовать следующие критерии: 

1) критерий индивидуальной информативности р-го экземпляра относительно 
внутренней границы, который будет принимать значения в диапазоне от нуля до 
единицы, а его значение будет тем больше, чем ближе экземпляр расположен к гра- 
нице между разными классами: 


1 т -а(у, ‚У. р-ты 
> е = рез, у, = У, р, 
где ак, 4) = А 
бык, =). 4,24] 


2) критерий индивидуальной информативности р-го экземпляра относительно 
его удаленности: 
— относительно границы класса: 


тд 
[С 1 $ -Р»» Хр -хь у 
=1- шш зе ыы 9 = 
>. 5=1,2,...т В ›Ур У; › 
1 
где 2, = - 
2 

в х -х,) У» = К, У, =А 
а 


— относительно внешней границы выборки: 


у 
и "Ор —Хь у 
[С , =1- ши 4е * Р=5р, 
Р 5=1,2....т 
1 
где у = - 
5=р-+1,.. т = 
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Значение данного критерия будет тем больше, чем дальше экземпляр расположен 
по отношению к остальным экземплярам класса или выборки, т.е. критерий будет вы- 
являть редкие нетипичные случаи, а также экземпляры, расположенные на внешних 
границах классов; 

3) критерий индивидуальной информативности р-го экземпляра относительно его 
близости к центру класса (кластера) определим как: 


| аоыаьт 
Е о ет рез, у, =У, 
Ур 

Данный критерий будет принимать значения в диапазоне от нуля до единицы: 
его значение будет тем больше, чем ближе экземпляр расположен к центру класса 
(кластера). 

Для редукции экземпляров определим интегральный показатель информативности 
р-го экземпляра определим как: 


ТС, = тах {1С, „,1С, „С: 


р? 2р?” Зр? 


ЖИ 


Данный критерии будет принимать значения в диапазоне от нуля до единицы: чем 
больше будет его значение, тем значимее р-й экземпляр для построения модели, посколь- 
ку он либо находится на границе между классами, либо является уникальным наблюде- 
нием, либо находится на внешней границе класса, либо близок к центру кластера. 

Предложенный метод редукции обучающей выборки, в отличие от существую- 
щих, не только исключает малоинформативные признаки, но и удаляет из выборки 
экземпляры, не существенные для построения диагностических моделей, что позво- 
ляет синтезировать более простые модели, обеспечивающие приемлемые аппрокси- 
мационные и обобщающие свойства, затрачивая при этом меньше времени на процесс их 
идентификации. 


Эволюционный метод построения деревьев решений 


Как отмечено выше, известные методы построения деревьев решений используют 
жадную стратегию поиска, не позволяющую в процессе поиска заменять атрибуты, по 
которым уже выполнено разбиение, на другие, более эффективные. Это в некоторых 
случаях приводит к тому, что синтезированные деревья решений не обладают приемле- 
мыми обобщающими способностями. 

Поэтому для синтеза деревьев решений предлагается использовать эволюционный 
поиск, который на основе стохастического подхода позволяет перебирать различные 
комбинации, не зацикливаясь на исследовании субоптимальных областей. 

В разработанном эволюционном методе построения деревьев решений предла- 
гается информацию о деревьях решений хранить в виде хромосом, представленных с 
помощью древовидной структуры данных. Для оценивания хромосом используется 
функция, отражающая информацию как о качестве аппроксимации с помощью теку- 
щего дерева решений, так и о его сложности, что позволяет строить деревья решений с 
приемлемыми обобщающими и аппроксимционными свойствами, содержащие при этом 
незначительное количество узлов, что в свою очередь повышает интерпретабельность 
синтезированных моделей. Для создания нового множества решений с помощью эво- 
люционных операторов скрещивания и мутации предлагается использовать операторы, 
аналогичные операторам генетического программирования, поскольку такие операторы 
эффективно генерируют новые решения, представленные в виде древовидных структур. 
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Предложенный эволюционный метод синтеза деревьев решений состоит из 
следующих этапов. 

Этап 1. Инициализация. На данном этапе необходимо редуцировать обучаю- 
щую выборку < Х, У >, выделив наиболее существенные признаки и экземпляры. 

После этого создается начальное множество решений, представленных в виде 


хромосом Н,,/= 1,2,..., М, где М- количество хромосом. При этом каждая хромо- 
сома Н, соответствует дереву решений Г,. 

Для кодирования хромосомы (представления дерева решения в виде хромосомы) 
целесообразно использовать структуру данных в виде бинарного дерева Т= {1 }, в 
узлах & =<с,, 1, И > которого расположены функции с, принятия решений на осно- 
ве значений входных переменных (в случае, если узел является внутренним) или значе- 
ние выходной переменной (для внешних узлов), а также ссылки / и к, на левого и 
правого потомков, соответственно, представляющих собой структуры, аналогичные &, . 


Этап 2. Оценивание текущего набора решений. В качестве целевой функции целе- 
сообразно использовать функцию, учитывающую: 


— ошибку прогнозирования или классификации Е (г) с помощью дерева Г, со- 
ответствующего оцениваемой хромосоме Н , ; 

— сложность синтезированного дерева 5 (г). 

Учитывая оба критерия, предлагается использовать такую целевую функцию: 

Ин, )= вЕ(, + а,5(Т,)> пит, 

где а и а, - коэффициенты, учитывающие значимость каждого из целевых 
критериев (Е (г. и5 } соответственно), ©, +а, =1. 

Для оценивания сложности дерева можно использовать следующую формулу: 

$(т,)= мг,)+г,}+тг,), 

где М(Т,) — количество узлов в дереве 7,; 

„Г, } — количество ребер в дереве Т) ; 

п(Г, } - глубина дерева Т,. 


Этап 3. Проверка критериев останова поиска. В качестве таковых критериев 
можно использовать следующие: 


— Достижение максимального количества итераций поиска /[ тег, 


ах › 

— достижение приемлемого значения целевой функции Г” <=, где = — заданное 
пользователем максимально допустимое значение целевого критерия; /” — минималь- 
ное значение / (Н : целевой функции на текущей итерации. 

Если хотя бы один из критериев останова достигнут, то завершить поиск. При этом 
считается, что оптимальное дерево решений представлено в виде хромосомы Н’, зна- 
чение целевой функции которой равно /”. 


В случае если критерии останова не удовлетворены, выполнить переход к этапу 4. 

Этап 4. Отбор. Выбор хромосом для скрещивания и мутации предлагается выпол- 
нять пропорционально значению их целевой функции. Для этого рассчитывается среднее 
значение целевой функции в текущей популяции по формуле: 


1 М 
№24 
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После этого для каждой хромосомы Н ‚ вычисляется величина р, (н >. как отно- 
шение значения целевой функции Г (н ,) к среднему значению целевой функции в по- 


пуляции а - 


Л 
Величина р, (Н й определяет вероятность хромосомы Н, быть отобранной для 


скрещивания и мутации. При этом хромосома Н, копируется К раз в массив особей, 


допущенных к воспроизводству, где величина А вычисляется по формуле: 
целое (. (н, )), если (2. (8. ) — целое (р. (н, ))) < гапа(0;1), 


целое (. (н, )) +1, в противном случае; 


где гапа(0;1) — случайно сгенерированное число в диапазоне (0;1). 


Этап 5. Скрещивание. Основной особенностью реализации генетических опе- 
раторов скрещивания и мутации при построении деревьев решений в предложенном 
методе является поддержка синтаксической целостности получаемых решений (хро- 
мосом). Оператор скрещивания предлагается выполнять следующим образом. Вна- 
чале выбираются случайным образом на каждом из родительских деревьев одна или 
несколько точек (узлов дерева решений). Точки разрыва выбираются случайным 
образом для каждого родителя отдельно, что приводит к тому, вследствие выбора 
разных точек разрыва возможны ситуации порождения одинаковыми родителями 
разных потомков. После выбора точек скрещивания выполняется генерация потом- 
ков. Для этого необходимо обменять у родительских деревьев фрагменты согласно 
выбранным точкам разрыва. 

Этап 6. Мутация. Для изменения деревьев решений, выбранных для мутации, 
необходимо случайным образом выбрать мутирующий узел дерева, после чего вы- 
полнить мутацию одним из следующих способов: 

— мутация с увеличением -— в выбранном узле построить новую ветвь дерева, 
увеличив таким образом дерево; 

— мутация со сжатием — удалить выбранный узел и все его потомки, уменьшив 
тем самым размер дерева; 

— мутация с заменой — после выбора двух узлов дерева, выполняется обмен 
соответствующих ветвей. 

Этап 7. Формирование нового поколения. На данном этапе создается новое мно- 
жество решений из хромосом, созданных в результате скрещивания и мутации, а также 
из наиболее приспособленных хромосом предыдущего поколения (хромосом с наилуч- 
шими оценками целевой функции). После этого выполняется переход к этапу 2. 

Предложенный эволюционный метод синтеза деревьев решений основан на сто- 
хастическом подходе и не использует жадную стратегию поиска, позволяет строить де- 
ревья решений с приемлемыми обобщающими и аппроксимационными свойствами, 
содержащие при этом незначительное количество узлов, что в свою очередь повышает 
интерпретабельность синтезированных моделей. 


Эксперименты и результаты 


Для проверки эффективности использования предложенных методов редукции 
обучающей выборки и синтеза деревьев решений на основе эволюционного подхода 
была выполнена их программная реализация. 
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После чего решалась задача синтеза диагностической модели коэффициента упроч- 
нения деталей авиадвигателей от различных параметров. 

В настоящее время для упрочнения лопаток, валов и дисков газотурбинных дви- 
гателей широко применяется алмазное выглаживание [6], которое, в отличие от ручного 
полирования полотна, позволяет получать более благоприятные и стабильные свойства 
поверхностного слоя за счет пластической деформации и механизации процесса упроч- 
нения, что повышает надежность и ресурс обрабатываемых деталей. 

Показателем эффективности упрочнения алмазным выглаживанием деталей, рабо- 


тающих при циклических нагрузках, является коэффициент упрочнения Д”, который 


представляет собой один из важнейших факторов при расчете запаса прочности деталей 
газотурбинных авиадвигателей [6]. 


В настоящее время расчет коэффициента упрочнения 7 обычно производится по 


результатам испытаний на усталость стандартных образцов [6], что является дорого- 
стоящей и не всегда практически осуществимой задачей. Поэтому актуальной является 
задача построения математической модели коэффициента упрочнения, позволяющей 
оценивать его значения без проведения испытаний деталей авиадвигателей на усталость. 

Эффективность алмазного выглаживания в значительной мере зависит от выбран- 
ных режимов, физико-механических и геометрических характеристик упрочняемых 
деталей и деформирующего инструмента. 

В качестве факторов, наиболее полно отражающих процесс алмазного выглажива- 
ния деталей, используют: х! — твердость материала (НВ, МПа); х› — среднее контактное 
давление в зоне деформирования (4, МПа); хз — полуось эллипса касания в зоне упру- 
гого контакта (а, мм); х4 — подача при выглаживании (5, мм/об.); х5 — предел прочности 
материала (оз, МПа); х5 — предел текучести материала (002, МПа); х7 — показатель 
деформационного упрочнения (и); хз — теоретический коэффициент концентрации 
напряжений от следов обработки (@.^"); хо — параметр исходной шероховатости детали 
(Ка, мкм); хо — сила выглаживания (Р,, Н); хи! — радиус сферы алмазного инструмента 
(Кеф, мм); хр — параметр шероховатости после выглаживания детали (А.2, мкм); хз — 
теоретический коэффициент концентрации напряжений натурной детали или образца 
(о); ха — диаметр образца в опасном сечении (4, мм); х15 — радиус скругления галтели 
или надреза (7, мм); х16 — относительный градиент первого главного напряжения (С, 
мм '). Таким образом, обучающая выборка содержала 16 признаков и 189 экземпляров. 

На первом этапе вычислительных экспериментов с помощью предложенного ме- 
тода редукции обучающей выборки были исключены малоинформативные признаки 
(Хз, Хв, Хз, х15) и 52 малозначимых экземпляров. 

Далее проводился синтез деревьев решений с помощью методов САКТ, С4.5 и 
предложенного эволюционного метода. Результаты, полученные с помощью различных 
методов, приведены в табл. 1. 


Таблица 1 — Сравнение различных методов синтеза деревьев решений 


Характеристики 
о Метод синтеза дерева решений сиНтеЗированноЕ о. ДЕреВа 
т Е(Г)) О ТГ; тг) 
1 |САВТ 0,032 87 86 6 
2 |С4.5 0,027 95 94 7 
3 |Эволюционный метод 0,014 61 57 7 
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Как видно, предложенный эволюционный метод обеспечил построение дерева 
решений с лучшими аппроксимационными свойствами, при этом обладающего мень- 
шим количеством узлов. 


Заключение 


В работе решена задача построения диагностических моделей на основе деревьев 
решений. 

Научная новизна работы заключается в том, что: 

— предложен метод редукции обучающей выборки, который в отличие от сущест- 
вующих не только исключает малоинформативные признаки, но и удаляет из выборки 
экземпляры, не существенные для построения диагностических моделей, что позволяет 
синтезировать более простые модели, обеспечивающие приемлемые аппроксимацион- 
ные и обобщающие свойства, затрачивая при этом меньше времени на процесс их 
идентификации; 

— разработан метод синтеза деревьев решений на основе эволюционного поиска, ко- 
торый основан на стохастическом подходе и не использует жадную стратегию поиска, 
позволяет строить деревья решений с приемлемыми обобщающими и аппроксимацион- 
ными свойствами, содержащие при этом незначительное количество узлов, что в свою 
очередь повышает интерпретабельность синтезированных моделей. 

Практическая ценность результатов работы состоит в том, что решена задача син- 
теза модели диагностической модели коэффициента упрочнения деталей авиадвигателей. 
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Е.О. Гофман, А.О. Олйник, С.О. Суббопин 

Еволюцщйний метод синтезу дерев ришень 

Дослджено еволющйний шдхд до побудови дерев рипень. Розроблено метод редукцй навчально! вибрки, 
що дозволяе виключати малозначим! та малонформативн! ознаки. Запропоновано еволющйний метод 
побудови дерев рипень. Проведено експерименти з синтезу дагностичних моделей на основ! запропоно- 
ваних метод\В. 


Е.А. Сорпап, А.А .ОПпуг, 5.А. бибройп 

Еуош@опагу Ме@о4 о{ Оес1510п Тгее$ Зупе$15 

Еуоайопагу арргоасб 1 сопзбласИп» 4ес151оп \теез 15 шуезИсае4. А шейфо4 г затр!е гедисйоп, 
аПо\уше ю ехсшае итееуапе ап иптЮюгтайуе Еа@хгез 1$ сгее4. ЕуоаНопагу тефо4 г сопзгасИпе 
Честз1оп гее$ 15 ргорозе4. Ехрегилет оп е уп е$1$ оЁ Фаепо$Нс то4е1$ Базе4 оп Фе ргорозе4 тео4$ 
аге сопаисе4. 
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